辽宁学术搜索 - 详细信息

	搜索小提示
1、多个搜索词用“+”连接，系统作逻辑或运算处理； 2、系统默认开启中英文互译功能，您可在搜索设置中关闭； 3、在搜索内容加上“半角引号”，系统将对搜索内容做精确检索； 4、多个搜索词用“空格”或“*”连接时，系统做逻辑与运算处理； 5、系统默认开启检索词提示，您可在搜索设置中关闭。

分享到：

应用于网上图书领域的Deep Web实体识别

建立Deep Web集成系统是目前的研究热点，但由于不同网站对同一实体的数据描述在表现形式上存在着差别，导致冗余信息多，给用户的查询带来不便。实体识别是Deep Web集成系统中一个至关重要的环节，它的目的就是去掉结果中的重复数据，即降低数据的冗余度。本文主要对Deep Web数据集成中的实体识别进行了深入的研究。
　　针对中文图书领域Deep Web实体识别，通过分析各个网站对图书信息的描述形式，发现不同的网上书店对同一本书的描述通常存在着差别，而对不同图书的描述又可能非常相近。由于上述情况的存在，本文提出了基于改进Jaccard系数和领域本体的Deep Web实体识别方法。在图书文本属性中，直接应用Jaccard系数进行计算，不能解决在文本属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别的过程中对Jaccard系数进行了两点改进，一是为文本分词后的单词增加权重系数，二是字符串匹配时的包含关系用系数m来确定。利用改进Jaccard系数法计算文本相似度，能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配，来解决作者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的重要程度不同，所以本文利用层次分析法获得各个属性的权重，然后加权相加计算实体相似度，从而整合重复实体。实验表明，该方法对中文图书领域的Deep Web实体识别具有较高的准确率。
　　

作者：: 李英华

学位授予单位：: 河北大学

专业名称：: 计算机软件与理论

授予学位：: 硕士

学位年度：: 2010年

导师姓名：: 王煜；袁方

中图分类号：: TP311.13；TP391.43

关键词：: 网上图书；Deep Web实体识别；Jaccard系数；文本相似度；图书属性匹配; Deep Web；Entity identification；Jaccard coefficients；Domain ontology；AHP

原文获取

该文献暂无原文链接!

该文献暂无参考文献!

该文献暂无引证文献!

相似期刊

相似会议

相似学位

作者科研合作关系：

点击图标浏览作者科研合作关系，以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络：

点击图标浏览该主题词的知识脉络关系，包括相关主题词、机构、人物和发文刊物等。

作者科研合作关系：

主题知识脉络：

检索设置